查看原文
其他

捅了马蜂窝一刀的“数据造假”竟是内容行业默认潜规则?

晓通 刺猬公社 2019-02-22

马蜂窝千万量级的数据造假,只是冰山一角。


刺猬公社 | 晓通

 

2014年的4月,马蜂窝CEO陈罡发了一条长微博,标题是《我也谈谈酒店的“正面评价”》。文中陈罡点名指责去哪儿网花钱雇人撰写正面评论,500块钱一条,“这种误导用户的做法并不明智”。



4年之后,马蜂窝成长为国内最大的旅行出游服务平台,却因为数据造假成为舆论场的主角。

 

10月20日,一篇题为《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章在朋友圈迅速刷屏。文章根据一个三人数据团队“乎睿数据”给出的分析报告,列出了马蜂窝在用户评论、游记等数据上存在的抄袭问题。

 

这篇文章来自自媒体“小声比比”,负责人梓泉在接受AI财经社采访表示,发现马蜂窝点评数据造假的是乎睿数据团队。4个月以前,乎睿数据团队计划开发一个分辨餐饮点评真实性的模型,想用马蜂窝的数据来做机器训练,结果却发现了马蜂窝点评数据的造假问题。

 

上述分析报告显示,马蜂窝平台上2100万条点评数据中,有7454个抄袭账号,这些抄袭账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了572万条餐饮点评,1221万条酒店点评,占马蜂窝平台全部点评数量的85%。

 

 

马蜂窝是一家成立于2006年的在线旅游服务网站,2017年完成1.33亿美元的D轮融资,以游记、攻略等UGC(用户原创)内容作为最大的特色,目前已经发展成为国内最大的在线旅游服务平台。相比同类型的去哪儿、携程等旅游服务平台,内容是马蜂窝最核心的竞争力,“数据造假”指控的严重性不言自明。

 

空口无凭难以服人,乎睿数据给出的证据有如下几点:

 

1,部分账号的点评内容中,时间地点自相矛盾。




2,语句不通,疑似直接调用翻译结果,并在内容中出现”简明英汉词典“字样。




3,抓取到有特殊标记的反爬取内容。



除开存在抄袭现象的7454个账号,报告中还提到另外选择了1万5千个活跃账号,通过对其行为习惯的分析,得出这些账号并非真人使用账号的结论。乎睿数据将调查的过程和结论整理出了一份75页的“马蜂窝起底报告”,在公众号中贴了出来。

 

抄袭点评内容加伪造虚假账号,这份报告的指控直击马蜂窝最核心的商业竞争资源,对这样一家以内容为特色的平台来说,这种指责可以说是致命的打击。

 

“马蜂窝数据造假事件”迅速发酵。在接受AI财经社采访时,小声比比负责人梓泉表示,这篇20日晚上11:40发布的文章,在第二天的阅读量已经超过百万。

 

22日早晨,马蜂窝官方发表一则声明,表示已经对全站游记、攻略、嗡嗡(旅行故事)、问答、点评等数据进行了核查,并对涉嫌虚假的信息展开查处,同时承认了点评内容中存在涉嫌虚假点评的账号,但是其数量在整体用户中的占比“微乎其微”,并进行了清理。

 

 

除开这一处正面回复,对于报告中提到的点评内容抄袭、爬取同类网站内容等问题并未作出回应。

 

但是马蜂窝付诸了一些实际行动。现在在马蜂窝网站上搜索上述报告中提到的涉嫌抄袭和虚假信息的账号时,许多账号的数据显示为0。21日晚上,小声比比推送文章,声称马蜂窝已经将报告中提及的账号数据清空。22日,马蜂窝将乎睿数据团队和小声比比创始人告上法庭。

 

马蜂窝被捅了蚂蜂窝,爬取数据也再次成为一个热议话题。

 

“爬取数据是互联网平台惯用的方法。”网络安全行业从业者司马子羽告诉刺猬公社(ID:ciweigongshe),爬取数据在互联网行业中已经算不上不能说的秘密,而是人尽皆知的潜规则。

 

“互联网产品在上线之初都会经历‘冷启动’的阶段,在这个阶段中是很难获得足够数量的用户数据的,所以爬取别家的数据是很普遍的做法。”司马子羽认为,爬取数据在新平台冷启动阶段是惯用方式,以至于当一家平台的数据和另一家平台出现重复时,很难说是哪一方爬取了对方的数据,“甚至有可能是两方共同爬取了另一家平台的数据。”

 

“但是马蜂窝在事情发生之后选择删除数据,这相当于承认了自己的爬取行为。”

 

爬取指的是利用爬虫程序自动抓取某个网页的信息,从技术角度来看,爬取数据的门槛并不高,具备基础互联网开发技术的工程师即可搭建爬取程序,因此,具有一定规模的互联网公司都会具备反爬取技术。

 

“所以说一个三人的数据团队,可以在一家互联网公司毫不知情的情况下,爬取对方2000万条数据,一般来说这是很难做到的,需要很强的技术和长时间的准备。”一位互联网黑产研究员告诉刺猬公社。

 

因为爬取而产生的纠纷并不鲜见,最早在2008年,淘宝屏蔽了百度的搜索爬虫,禁止百度搜索引擎抓取淘宝网页的内容,一度引发关于爬取数据的讨论。去年8月,今日头条在未经微博授权的情况下,自动抓取了微博自媒体账号的内容,致使微博暂停了第三方接口。时间再往前,脉脉也曾因非法抓取微博用户信息被判为不正当竞争。

 

 

“爬取数据本身是一个常用的数据收集手段,是否违法或者违规要看你怎么用,爬取了什么内容。”TMT领域分析师付亮告诉刺猬公社,类似爬取用户点评和游记这种行为,爬取程序只是代替人工完成了“复制+粘贴”的行为,本身没有问题,但是可能会涉及到用户原创内容的著作权或者知识产权问题。

 

不止一位互联网从业人士指出,在电商、视频、图文等领域,刷量、爬取数据冒充原生内容都是常见的手段。百度搜索“大众点评 刷量”“去哪儿刷量”等字样,都可以检索出大量刷量教程。

 

即使不使用爬取技术,内容造假的方式也有很多。在淘宝上搜索“代发 游记”,可以检索到专门代发游记的淘宝商店。

 


22日晚上,小声比比再次推文《我承认,我们是有组织攻击马蜂窝的》,当晚阅读量便达到十万加。至此,三篇十万加把马蜂窝逼到了舆论中央。有报道称,马蜂窝正在计划进行的新一轮融资和估值都将受到这次事件的影响。

 

2014年,陈罡在写给去哪儿的那篇长微博中,结尾有这样一段:

 

我相信,旅行社区会让大家的旅行体验和感受完全不同,基于用户的真实点评及数据也会让产业链条的升级发生翻天覆地的变化。我和吕刚最初创建马蜂窝网站的梦想很简单,帮助全球的旅行者作出靠谱有爱的履行决策。

 

当然,这一梦想,依靠500块的“正面评价”是不可能完成的。

 

现在的马蜂窝还能完成这一梦想吗?



晓 通

关注内容产业的新鲜事

微信号:NEXT0117

添加时烦请注明姓名、机构、职务


刺猬公社是聚焦内容产业的垂直资讯平台,关注领域包括纸媒和数字出版、互联网资讯和社交平台、视频音频平台、影视文娱、内容创业和自媒体、二次元,以及VR/AR和人工智能等未来内容发展方向。

「关键词」解锁


延禧攻略  |  幻乐之城  |   陈一发被封  |  人生一串

快把我哥带走  |  狗粉丝  |  怪物猎人  |  单口喜剧 

同道大叔 | 我不是药神 | 创造101 | 明日之子2

 世界杯 | 红海行动 | 奇葩大会 | 十万个冷笑话

办公室小野 | 陈晓楠 | 薛兆丰 | 卓伟 |  陈晓卿

陈安妮 | 叶非夜 | 姜思达 | 陈峰 | 张全蛋

映客上市 | 抖音广告 | 头腾大战 | 海外短视频

知乎融资 | 内涵段子 | 豆瓣改版 | 腾讯游戏  | QQ远去

2018内容剧变半年记 | 多抓鱼 | 区块链媒体 | 山东新媒体村


活动推荐


「跨越山河大海」媒体人创业转型大会


内容产业报道第一媒体

微博 @刺猬公社

转载、媒介合作联系微信号ciweimeijiejun

商务合作联系微信号yunlugong

投稿邮箱ciweigongshe@126.com

网站www.ciweigongshe.net

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存